Aprendizaje online de recompensa-castigo sin recompensas externas Aprendizaje online sin recompensas externas: OHIRL aprende con flujos perceptuales fijos y alcanza 97.9% de precisión en acciones óptimas. 2026-06-18 · 3 min